Day 1｜來做個會說話的圖片識別小幫手（1/5）

2025 iThome 鐵人賽

DAY 1

自我挑戰組

從讀書筆記到可落地 AI：LangChain、LangSmith 與 Agent 工具 30 講系列第 1 篇

17th鐵人賽

Vivianou

2025-09-15 23:46:44

505 瀏覽

分享至

專案啟動：Agents相關研究30天計畫

歡迎來到這個為期 30 天的實戰計畫！目標是從零開始，打造一個功能強大的「多模態記憶型 Agent」。這個 Agent 不僅能看懂圖片，還能與你進行深入的對話，並將對話內容結構化地記憶下來。
首先第一步，會先參考以下優秀的教學影片與文件，快速做出一個最小可行性的 Demo。在有了基本框架後，我們再逐步拆解、加深，探討每個技術細節，最終完成一個功能完備的智慧助理。

參考影片： How Easy to Build a Real-Time Multimodal AI Assistant with LiveKit
參考文件： Google-Agnetic Design Pattern

目標：打造一個會識別圖片、能記憶的智慧助理

在這 30 天的旅程結束時，將會完成一個功能完整的 App，它具備以下核心能力：

看圖說話：使用者可以上傳圖片，Agent 能理解圖片內容。
多輪追問：能針對圖片內容進行多輪的深入對話。
結構化輸出：自動將圖片分析結果整理成結構化的 JSON 格式（包含物件、關係、場景等）。
智慧記憶：從對話與圖片中抽取關鍵資訊，形成「記憶卡」，供後續對話使用。
語音互動：支援語音輸入 (STT) 與語音回覆 (TTS)。

整體架構圖

30天實作路線圖 (大綱)

第一階段 (D2–D5): 基礎 Demo 建構 (Default)

Key points：LiveKit、Vision (視覺) 模組、基本agent。

第二階段 (D6–D7): 結構化輸出 (Formatted Output)

Key points : 常使用的structure output分享

第三階段 (D8–D13): 工具使用 (Tool Use)

Key points : 工具使用設計 - 何時該停？

第四階段 (D14–D18): 記憶落地 (Memory)

Key points : 設計並實作記憶模型（寫入、選取、更新)

第五階段 (D19–D22): 協作與控制流 (Orchestration)

Key points : 建立 Supervisor 節點、agents 協作方式

第六階段 (D23–D26): Context 工程與推理 (Context Engineering & Reasoning)

Key points : Context 的寫入(langGraph state)、memory content、tool result

第七階段 (D27–D30): 落地與驗證 (Deployment & Showcase)

Key points : 3–4 案例分析。

明日預告

將正式進入 Default 製作 (2/5)：依照參考影片，拉起一個端到端的 Demo，並導入 LiveKit、STT 與 TTS。

Day 2｜使用 LiveKit 開始打造（2/5）

系列文

從讀書筆記到可落地 AI：LangChain、LangSmith 與 Agent 工具 30 講共 30 篇

RSS系列文訂閱系列文

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

Wolke

iT邦研究生 4 級 ‧ 2025-10-10 18:24:12

感謝未知作者的精彩分享！

JavaScript 生態系統真的很豐富，這樣的分享對開發者很有幫助。

實際的程式碼範例很有幫助，讓理論更容易理解。

也歡迎版主有空參考我的系列文「南桃AI重生記」：https://ithelp.ithome.com.tw/users/20046160/ironman/8311

如果覺得有幫助的話，也歡迎訂閱支持！

回應
檢舉

登入發表回應

我要留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從讀書筆記到可落地 AI：LangChain、LangSmith 與 Agent 工具 30 講系列 第 1 篇